查看原文
其他

自动驾驶数据共享:效用与障碍(附文字实录)

洪延青 网安寻路人 2022-03-20

按:


这是在人民大学未来法治研究院举办的“自动驾驶规制的国际经验与中国探索”论坛上的分享。会议情况见此【自动驾驶规制的国际经验与中国探索


我的分享是关于数据。并非是网络安全数据,而是路测数据的共享。其实就想回答一个核心问题——我们是不是要发生一定数量的生命,才能换来技术的进步?Uber在美国撞死行人的事件,是自动驾驶技术发展中一定要发生的吗?如果一定会发生,我们能不能尽量地降低这些事件发生的频率?


我的答案是共享路测数据。基本观点如下:


  1. 事故数据应当认为是公共品,是用生命、鲜血换来的。应当共享出来,不让同样的错误一再出现。


  2. 险情数据应鼓励共享。对训练算法非常有意义,能够迅速提升整个行业的水平。政府应该以政策优惠的形式鼓励企业把险情数据开放出来。


  3. 正常行驶数据也鼓励共享,但应该在企业之间共享,不需要通过政府。


  4. 目前,北京、上海开始了路测。监管机关的主要思路似乎还只是避免路测对周围造成风险溢出效应。但路测产生的数据,能不能用来形成自动化算法考官,将来用于考核自动驾驶算法能不能从“驾驶学员”毕业成合规的“驾驶员”?毕竟,用传统的方法来考核算法,似乎是无解。只能机器 vs. 机器。


以下是分享文实录:


我们到底是不是需要撞死一定数量的人才能达到一定的技术水平呢。我今天就来跟大家分享一下在数据这方面起到的作用。

因技术在不断提高,未必都要伤到一个人,所有测试的一个车型不同车型,如果都能有共享数据,掌握这个数据后我们可以做进一步的改善,不需要再下一次犯同样的错误,就不需要犯第二次第三次错误了。

驾驶一般是这三个流程,模拟驾驶--封闭驾驶--真实驾驶。在真实环境下驾驶,真实环境下采集的数据又变成了虚拟驾驶环境下输入的数据,等于说重新构建出虚拟驾驶的环境。

这张图中,大家可以看到,自动驾驶汽车传感器特别多,有摄像头,也有雷达,还有激光一样的东西。

实际上,这完全是一个非常数据密集型的装置,这个红色的紫色的光使这个自动驾驶的汽车能感觉到周围的车辆。红色的小框框是这个自行车,骑自行车的人,黄色的框是这个行人。那个绿色是他接下来要走的道。比如说车时时刻刻每一秒钟都在收集大量数据,那么收集数据的目的是干什么?四个方面问题--发现其他物体,理解物体的属性,预测物体会如何行动,然后判断其他物体的下一步动作,我怎么去做下一步的操作。

上午也有清华大学教授说,Waymo是世界上最先进的车,他在自己的广告语中说“每一个车在路上行驶每一个英里,实际上其数据都会共享到全部车队中去”。比如说每一次一个人干了一个事儿,实际上所有人都知道。那这个是它在车队内部做的共享,但问题是我们今天要说的问题是能够在更大范围内进行共享。那共享的正当性在哪?有什么样的法律障碍,或者说我们应该怎么去做?我今天就讨论这三个方面的问题。

现在上海和北京都有一个路测规定,我们来看看他们准备收集什么样的数据,就能看出监管者对数据是一个什么态度。

《北京市的自动驾驶车辆道路测试管理实施细则》区分了两种装置,一个叫监管装置,另一个叫自动驾驶数据记录装置,这两个装置是干不同的事。

  • 监管装置是记录三类数据,然后必须接受平台方的日常监管。所谓的日常监管,实际上用一个词,就是数据要实时接入到平台中去,其实就这么简单。

  • 同时车上记录的那个数据呢?还有一个装置叫记录装置,记录的是周边的环境数据,车辆运行信息,车辆操作信息,以及在测试车辆发生碰撞、失控、脱离自动驾驶状态等状况前60秒到停车时间段内的相关数据。这个数据不用实时回传,但是要保证第三方随时能够调阅回放。发生交通事故的24小时内,你必须把那个60秒到停车时间段内的数据上报给第三方授权机关。

  • 同时北京市还有规定,管理机构可以在指定的路段安装摄像头,监控到车辆到底在什么位置。

第一类和第三类是监管机关想实时掌握的,中间那一类监管机关不需要实时掌握,可以等出了事再掌握。这是北京的一个做法。

那么来看上海。《上海市智能网联汽车道路测试管理办法》没有区分两类装置,都叫监控装置。监控装置收集了这么多的数据,监管机关说你也必须实时接入我的第三方平台。第三方机构有权调阅测试车辆脱离自动驾驶功能发生前30秒的自动驾驶记录装置记录的数据。刚才说到北京市是要求60秒前的,上海是30秒前。这也是两者的不同。

实际上我们看到,如果对数据作大致区分的话,一种是事故数据,一种是险情数据,另外一种是行驶数据。险情就是车没有碰撞,但是大概会有危险情况;事故数据包括碰撞、失控,脱离自动驾驶的数据,法定需要上报。

按照北京、上海的规定,法律上需要上报及配合调阅,实际上这也不是一个新规定。在美国有Fatality Analysisreporting system,它属于report。这张PPT右边的图是公安部交管局对内发布的,每年都会有一个厚厚的道路交通事故统计年报。要求每地都将交通数据报上来,其中就有事故形态的数据。比如说发生交通事故后,到底是剐蹭,还是追尾,还是其他形态都有统计。

就是说无论是自动驾驶或者传统的汽车,只要发生事故都需要上报。因此整个监管思路是(上海和北京的新规定再加上传统的监管思路):指定路段,甚至还指定测试的项目,企业要先申报测试什么项目(即特别可控)然后政府通过实时掌握某几类数据能够随时掌握车的位置、速度、驾驶状态、驾驶人行为。当发生事故或者事件时需要强制上报。所以整个监管是从政府想要的数据来反推它的监管思路是什么。


为了支持自动驾驶的发展,政府允许在一定的路段测试,为了企业发展,政府愿意拿出一定的公共资源支持,但是企业不能造成风险,所以政府要有能力时时刻刻监控企业到底有没有对周围的环境造成风险,企业需要尽量把风险降到最低。所以从这个思路出发,要求实时接入这个监管思路是可以理解的。

数据收上来之后能不能对外共享呢?回到车老师刚才提的问题,我们难道非要一次次发生亚利桑那州发生的事件?所以我在想实际上网络安全,包括现在要求这个上报的这个数据,能不能共享?企业当然不想,因为这可能涉及到企业的商业秘密,涉及到个人信息,但我们也不能一概而论,应根据不同情况做一个切分。

首先,对于事故信息,既然都要强制上报,我相信企业是能接受的,那应该由公共部门来对外共享。这有什么好处?由于我们现在有车内的这些记录,收集的信息是非常丰富的,包括周围的环境天气,车的状态,而这样的事故信息不管是收集事故前30秒的也好还是60秒也好,对在这个场景下训练算法的能力是有非常大的意义的。而且说老实话,这些数据是用鲜血和生命换来的,它应该是一个公共产品的角色,不再是企业自己享有的一个私有的商业秘密。那共享出来有什么好处呢?让其他人不要再犯同样错误。那共享路径是什么呢?由主管部门做匿名化,然后有条件的共享。在共享的时候,享受一定的责任原则。要鼓励企业共享,就要给定原则。

对于险情数据,数据企业其实也愿意共享。比如有一个车队在某个路段做了一次测试之后,那个车位,另外一个公司车队还要做同样次数,到底有没有这个必要?都是利用公共资源,为什么要让那么多的企业都在同样的路段占用同样的公共资源呢?为了自己企业的商业利益,难道就不能有一个企业干了一些基础工作后,把这个数据共享出来吗?

当然这是我一个比较理想化的想法,但是这样做的好处是,共享出来就能迅速提高整个行业的整体水平。当然企业肯定担心别的企业搭便车。比如一个企业花了七八百万申请了一个自动驾驶车牌,别的企业啥事不干,就拿了数据,而且共享完险情数据后再共享的话,会影响民众,损害共享企业声誉,可能还涉及法律责任问题。所以,险情数据,就不要强制。如果企业愿意共享的话,国家鼓励为主,可在更大的场景下去注册。在注册申请的时候,给企业一个优先待遇,比如说共享方享受法律免责(包括个人信息与主管监管部门的处罚等)。

英伟达公司后来就宣布发布了一个系统,这个系统能够非常有效地模拟周围的环境,实际上我们可以在模拟的环境做很多事,为什么非要都上路?上路会给周围的环境带来很多的风险。Billionsof driving miles can be simulated “without putting anyone in harm’s way”.

类比于网安法第51条52条,建立安全预警和信息通报机制。各行业和领域都要建立。工信部《公共互联网网络安全威胁监测与处置办法》也说公共互联网网络安全威胁是指公共互联网上存在的或传播的可能或已经对公众造成危害的网络资源、恶意程序、安全隐患或安全事件。这些都要上报。实际上这也是美国在网络安全方面的立法重点。

美国一直想施加具体的网络安全义务,但是由于企业反弹特别大,所以一直没能做成,但是在共享领域,国土安全部作为一个接口,即统一做私营部门和联邦政府的一个接口。企业之间如果共享信息的话,可以免掉法律责任,比如说个人信息方面责任,还有反垄断方面的责任。因为企业如果共享信息很可能被认为是反垄断中的一个行为,把这两方面的责任都给取消掉,这样能鼓励企业在网络安全方面尽量去共享信息。

车企有这样一个机构,实际上就是刚才说的美国2015年那个《网络安全信息共享法案》建立起来的危险信息融合共享的一个中心。但是这个是企业内部自己建的,等于说一些企业都在这个联盟里头进行企业之间信息共享,但他们只是共享网络安全信息,有没有共享事故数据这块不是特别清晰。所以我们今天在讲的是一个比较新的话题。

关于第三个,行业数据--行驶数据。企业说我为什么要共享,确实没必要非要共享。对吧?但是A POLLO, 就是上午梁总说的,企业以自己生态内部共享为主,但是我们试想互相竞争之间的企业能够共享吗?因为毕竟路测的环境是有限的,路就那么多,拿出来测试,不同企业在不同地方测试的话,有数据偏好性,很多地方测试的需求度降低了。为什么要测那么多次?这样进一步提升了周围的风险。而且我们共享的数据只是环境数据而已,我们不希望共享的这个车辆涉及商业秘密算法的那些数据。那能不能这么做?我们也希望国家出台一些鼓励的政策,比如说企业自己建联盟,或者说共享网络。

说实话刚才讲的都是路测,还有一个问题是,我们现在的思路等于说监管上面的思路--降低风险。那我们提三个建议,就是说企业需要共享出来数据,这样才提升行业水平。但实际上还要把算法拟人化。

我们这个路测思路,理论上把算法当成一个驾驶学员。首先我们第一个要求说自动化的驾驶学员不要对外造成伤害,然后我们希望通过共享数据,丰富这个对自动化驾驶学员的训练场景。然后由于共享数据,能够疏导他的训练时间,而且提升我们整个行业的环境。


刚才我们这个Covington律师提到说,美国很讨厌中国有各种各样的补贴的行为,但是这样的事情能够迅速由国家出面牵头来做,能够迅速提升整个行业的水平,而不涉及任何补贴,我相信这个是美国政府指责不了的一件事,对吧?中国愿意用很好的立法去支撑这个技术往前发展,那美国人也是没话说的。

还有一个很具体的问题,我们可能都没有考虑到,现在都是讲路测,什么时候我们认为能合格上路了?如何判断一个自动化的驾驶学员已经变成一个合格的驾驶员了呢?说老实话,到现在还没有考虑清楚用哪个标准去评价。第一种,我们自然人路考时测试的基本技能,不是各个场合我们都考一遍,对吧?你简单地起步停车靠边儿,倒车几个场景就够了,或者上坡下坡。说要考虑各个环境下,这是对自然人潜台词,又是刚才车老师讲的,双方是有博弈的,作为一个物体而不做一个人的话,哪些东西不用去考虑,我相信一个正常心智的人基本上都有这个能力。所以我们入口是很简单对吧?就是一个技能。


那现在互联网公司这个自动化,其实是需要训练时间,训练里程。这个训练特别好,但说老实话,到底是不是就是我们认定的安全的,我们也不知道。还有一个就是刚才说的能不能应付特殊的场景,比如说突然跑一个人出来,跑一个动物出来,或者说刚才说“两难”困境的问题我们能否应对,那将来要测试算法,能不能从学员变成一个合格的驾驶员?


而且说老实话,测试算法的考题谁来出?我们普通的交管交警也想不出那么多场景,所以我们可能还是需要将来有自动算法去考“自动驾驶员”。那这个情况下自动算法,要把他作为自动化的考官这个特殊场景,怎么拿到这些数据去做自动化的考官?这些数据还是要来自于路测企业形成的数据,把它进行利用,然后再进行加工,变成一个自动化的客观数据。所以说对这些数据,我们需要在开始就设计好它将来有哪几个用途,但是很可能我们现在都没有考虑这些事。


我的分享这么多,谢谢。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存